DPO
Direct Preference Optimization
리워드 모델 없이 LLM policy model만을 학습시킨다.
어떻게 하냐면, 사람에게 두 답변 결과를 주고 선호되는 답변을 고르게 한다.
훈련되는 모델에게는 선호되는 답변을 생성하게, 선호되지 않은 답변은 덜 생성하게 loss를 계산하여 훈련한다.
수식
위 수식이 DPO의 loss function이다.
- 프롬프트 - reference model의 답변 결과 중 사람이 선호한 결과 - reference model의 답변 결과 중 사람이 선호하지 않은 결과 - 시그모이드 함수 - 훈련 대상 모델 - Reference model. 훈련 중 가중치가 업데이트 되지 않는다.
수식을 보면 알 수 있겠지만, 사람이 선호한 결과는 높게, 선호하지 않은 결과가 샘플링될 확률은 낮게 훈련이 진행된다는 것을 알 수 있다.